Praca domowa 4

Interpretacja działania modelu Random Forest

dla zadania klasyfikacji - airline passenger satisfaction

Przygotowanie modelu

Przygotowanie danych

Wytrenowanie modelu

Hiperparametry zostały dobrane na podstawie pd2.

Możemy uznać, że model jest całkiem dobrze wytrenowany.

Interpretacja

Wykorzystamy do tego paczkę Dalex.

Predict-level explanations

Spróbujemy wyjaśnić decyzję modelu dla dwóch obserwacji a i b ze zbioru testowego. Jedna z nich to klient usatysfakcjonowany, a druga - nie.

Break Down

Część zmiennych, np. inflight wifi service, online_boardnig czy baggage handling w obu przypadkach ma zauważalny wpływ. Pozostałe zmienne są różne.

Shap

Aż 6 z 9 zmiennych, które pojawiły się na wykresach, powtarza się. Możemy sądzić, że niektóre udogodnienia w trakcie lotu są ważniejsze niż inne i to one głównie wpływają na satysfakcję klienta.

Ceteris Paribus

Im wyższa ocena, tym klient jest bardziej usatysfakcjonowany. Jednak poszczególne czynniki zdają się różnić mocą, np. inflight wifi service na poziome 5 dla obserwacji b mógłby sprawić, że klient zmienił by swoją satysfakcję.

Model-level explanations

Variable importance

Partial dependence profile

Warte zauważenia jest to, że oceny 1-3 dla sprawdzanych zmiennych "ocenowych" wydają się być jednakowo negatywne.

Podsumowanie